离散程度的度量 - 极差、四分位距与百分位距
离散程度的度量:描述数据分散程度的指标,也称为"离散度(dispersion)"或"变异度(variation)"的度量。
公式:\[ \text{Range} = \text{最大值} - \text{最小值} \]
特点:考虑所有数据,但受极端值影响大。
公式:\[ \text{IQR} = Q_3 - Q_1 \]
其中 \(Q_3\) 为上四分位数,\(Q_1\) 为下四分位数
特点:仅考虑中间50%的数据,不受极端值影响。
定义:两个给定百分位数的差值(如10th到90th百分位距)。
特点:考虑某一区间内的数据(如10th到90th考虑80%数据),不受极端值影响。
题目:120头非洲丛林象的体重(吨)分组表如下,估计:a 极差;b 四分位距;c 10th到90th百分位距。
| 体重\( m \)(吨) | \( 4.0 \leq m < 4.5 \) | \( 4.5 \leq m < 5.0 \) | \( 5.0 \leq m < 5.5 \) | \( 5.5 \leq m < 6.0 \) | \( 6.0 \leq m < 6.5 \) |
|---|---|---|---|---|---|
| 频率 | 13 | 23 | 31 | 34 | 19 |
a 极差:\( 6.5 - 4.0 = 2.5 \) 吨。
b 四分位距:
累计频率:13, 36, 67, 101, 120。
• \( Q_1 \) 位置:\(\frac{120}{4} = 30\),落在\( 4.5 \leq m < 5.0 \)组,插值得 \( Q_1 \approx 4.87 \) 吨。
• \( Q_3 \) 位置:\(\frac{3×120}{4} = 90\),落在\( 5.5 \leq m < 6.0 \)组,插值得 \( Q_3 \approx 5.84 \) 吨。
• 四分位距:\( 5.84 - 4.87 = 0.97 \) 吨。
c 10th到90th百分位距:
• 10th百分位数位置:\(\frac{10×120}{100} = 12\),落在\( 4.0 \leq m < 4.5 \)组,插值得 \( P_{10} \approx 4.46 \) 吨。
• 90th百分位数位置:\(\frac{90×120}{100} = 108\),落在\( 6.0 \leq m < 6.5 \)组,插值得 \( P_{90} \approx 6.18 \) 吨。
• 百分位距:\( 6.18 - 4.46 = 1.72 \) 吨。
题目:某班级50名学生的数学考试成绩分组表如下:
| 成绩区间 | 60-69 | 70-79 | 80-89 | 90-99 | 100 |
|---|---|---|---|---|---|
| 频数 | 5 | 12 | 18 | 13 | 2 |
求:a 极差;b 四分位距;c 20th到80th百分位距
a 极差:\( 100 - 60 = 40 \) 分
b 四分位距:
累计频率:5, 17, 35, 48, 50
• \( Q_1 \) 位置:\(\frac{50}{4} = 12.5\),落在70-79组(组边界69.5~79.5)
插值计算:\( Q_1 = 69.5 + \frac{12.5-5}{12} \times 10 = 69.5 + 6.25 = 75.75 \) 分
• \( Q_3 \) 位置:\(\frac{3 \times 50}{4} = 37.5\),落在80-89组(组边界79.5~89.5)
插值计算:\( Q_3 = 79.5 + \frac{37.5-17}{18} \times 10 = 79.5 + 11.39 = 90.89 \) 分
• 四分位距:\( 90.89 - 75.75 = 15.14 \) 分
c 20th到80th百分位距:
• \( P_{20} \) 位置:\(\frac{20 \times 50}{100} = 10\),落在70-79组
插值计算:\( P_{20} = 69.5 + \frac{10-5}{12} \times 10 = 69.5 + 4.17 = 73.67 \) 分
• \( P_{80} \) 位置:\(\frac{80 \times 50}{100} = 40\),落在90-99组(组边界89.5~99.5)
插值计算:\( P_{80} = 89.5 + \frac{40-35}{13} \times 10 = 89.5 + 3.85 = 93.35 \) 分
• 百分位距:\( 93.35 - 73.67 = 19.68 \) 分
慢缺肢蜥长度分组表:
| 慢缺肢蜥长度(mm) | 125-139 | 140-154 | 155-169 | 170-184 | 185-199 | 200-214 | 215-229 |
|---|---|---|---|---|---|---|---|
| 频率 | 4 | 4 | 2 | 7 | 20 | 24 | 10 |
a. 测量的慢缺肢蜥总数
b. 四分位距估计
c. 平均长度估计
d. 长度超过均值+IQR的数量
答题区域:
工厂工人月收入分组表:
| 月收入\( x \)($) | \( 900 \leq x < 1000 \) | \( 1000 \leq x < 1100 \) | \( 1100 \leq x < 1200 \) | \( 1200 \leq x < 1300 \) |
|---|---|---|---|---|
| 频率 | 3 | 24 | 28 | 15 |
a. 34%到66%百分位距
b. 落在该范围的数据量
答题区域:
火车旅程时间分组表:
| 旅程时间(分钟) | 15-16 | 17-18 | 19-20 | 21-22 |
|---|---|---|---|---|
| 频率 | 5 | 10 | 35 | 10 |
a. 5%到95%百分位距
b. 落在该范围的数据量
答题区域:
圣地亚哥气温数据:14.3, 12.7, 12.4, 10.9, 9.4, 13.2, 12.1, 10.3, 10.3, 10.6
a. 中位数和四分位距
b. 五月与六月对比
c. 七月落在10%-90%百分位距的天数
答题区域:
解答过程:
a. 测量的慢缺肢蜥总数:\( 4+4+2+7+20+24+10 = 71 \) 只
b. 四分位距估计:
累计频率:4, 8, 10, 17, 37, 61, 71
• \( Q_1 \) 位置:\(\frac{71}{4}=17.75\),落在170-184组,插值得 \( Q_1 \approx 170.14 \) mm
• \( Q_3 \) 位置:\(\frac{3×71}{4}=53.25\),落在200-214组,插值得 \( Q_3 \approx 209.69 \) mm
• 四分位距:\( 209.69 - 170.14 = 39.55 \) mm
c. 平均长度估计:组中值132, 147, 162, 177, 192, 207, 222
均值:\(\frac{132×4+147×4+162×2+177×7+192×20+207×24+222×10}{71}≈193.48\) mm
d. 长度超过均值+IQR的数量:均值+IQR≈233.03 mm,无数据超过,数量为0
解答过程:
总频数:\( 3+24+28+15 = 70 \)
累计频率:3, 27, 55, 70
a. 34%到66%百分位距:
• \( P_{34} \) 位置:\(\frac{34×70}{100}=23.8\),落在1000-1100组,插值得 \( P_{34}≈1082.08 \)
• \( P_{66} \) 位置:\(\frac{66×70}{100}=46.2\),落在1100-1200组,插值得 \( P_{66}≈1168.21 \)
• 百分位距:\( 1168.21 - 1082.08 = 86.13 \)
b. 落在该范围的数据量:\( 0.32×70≈22.4 \),约22个
解答过程:
总频数:\( 5+10+35+10 = 60 \)
累计频率:5, 15, 50, 60
a. 5%到95%百分位距:
• \( P_5 \) 位置:\(\frac{5×60}{100}=3\),落在15-16组,插值得 \( P_5≈15.7 \)
• \( P_{95} \) 位置:\(\frac{95×60}{100}=57\),落在21-22组,插值得 \( P_{95}≈21.9 \)
• 百分位距:\( 21.9 - 15.7 = 6.2 \) 分钟
b. 落在该范围的数据量:\( 0.9×60 = 54 \) 个
解答过程:
排序后:9.4, 10.3, 10.3, 10.6, 10.9, 12.1, 12.4, 12.7, 13.2, 14.3
a. 中位数和四分位距:
• 中位数:\(\frac{10.9+12.1}{2} = 11.5\)℃
• \( Q_1 \):\(\frac{10.3+10.6}{2} = 10.45\)℃,取10.3℃
• \( Q_3 \):\(\frac{12.7+13.2}{2} = 12.95\)℃,取12.7℃
• 四分位距:\( 12.7 - 10.3 = 2.4 \)℃
b. 五月与六月对比:六月中位数更高(气温中心更高),四分位距更小(气温更集中)
c. 七月落在10%-90%百分位距的天数:\( 0.8×31≈25 \) 天